001.jpg

002.jpg

004.png

005.png

006.png

007.png

008.png

009.png

010.png

011.png

012.png

image.png

013.png

031.png

032.png

033.png

034.png

035.png

036.png

037.png

038.png

Pyspark - mongoDB 실습

사용한 버전: pyspark version 3.1.2/ hadoop version 3.2/ mongo-spark-connector 2.12:3.0.1

설치 관련 사이트
https://ahnty0122.tistory.com/22
https://github.com/cdarlint/winutils/tree/master/hadoop-3.2.0/bin

image.png

pyspark 로 local mongoDB 의 AI_origin_data.DDH_DAEYOU 에 접근

load()하게 될 경우, pyspark 의 dataframe으로 불러오게됨.

여기서 pyspark의 dataframe type 과 pandas 의 dataframe type은 다르다.

pyspark dataframe : pyspark.sql,dataframe.DataFrame

pandas dataframe : pandas.core.frame.DataFrame

printSchema

show data

Select

Filter

groupBy

3DmeLabel_mongoDB

039.png

040.png